我们研究了任务不合时宜的持续强化学习方法(tACRL)。 TACRL是一种结合了部分观察RL(任务不可知论的结果)和持续学习的困难(CL)的困难,即在任务的非平稳序列上学习。我们将tACRL方法与以前文献规定的软上限进行比较:多任务学习(MTL)方法,这些方法不必处理非平稳数据分布以及任务感知方法,这些方法可以在完整的情况下进行操作可观察性。我们考虑了先前未开发的基线,用于基于重播的复发性RL(3RL),其中我们增强了具有复发机制的RL算法,以减轻部分可观察性和经验经验的重播机制,以使CL中的灾难性遗忘。通过研究一系列RL任务的经验性能,我们发现3RL匹配并克服MTL和任务感知的软上限的情况令人惊讶。我们提出假设,可以解释不断的和任务不足学习研究的这个拐点。通过对流行的多任务和持续学习基准元世界的大规模研究,我们的假设在连续控制任务中进行了经验检验。通过分析包括梯度冲突在内的不同培训统计数据,我们发现证据表明3RL的表现超出其能够快速推断新任务与以前的任务的关系,从而实现前进的转移。
translated by 谷歌翻译
我们采用了近端迭代,以便在加固学习中进行价值函数优化。近端迭代是一种计算上有效的技术,使我们能够向更理想的解决方案偏置优化过程。作为近端迭代在深增强学习中的具体应用,我们将深度Q-Network(DQN)代理具有近期术语的目标函数,以确保DQN的在线网络组件仍保留在目标网络附近。我们用近端迭代调用DQN或DQNPRO的所得代理,在ATARI基准测试中对原始DQN的显着改进。我们的结果强调了采用深度增强学习的声音优化技术的力量。
translated by 谷歌翻译
分位数回归是统计学习中的一个基本问题,这是由于需要量化预测中的不确定性或对多样化的人群建模而不过分减少的统计学习。例如,流行病学预测,成本估算和收入预测都可以准确地量化可能的值的范围。因此,在计量经济学,统计和机器学习的多年研究中,已经为这个问题开发了许多模型。而不是提出另一种(新的)算法用于分位数回归,而是采用元观点:我们研究用于汇总任意数量的有条件分位模型的方法,以提高准确性和鲁棒性。我们考虑加权合奏,其中权重不仅可能因单个模型,而且要多于分位数和特征值而变化。我们在本文中考虑的所有模型都可以使用现代深度学习工具包适合,因此可以广泛访问(从实现的角度)和可扩展。为了提高预测分位数的准确性(或等效地,预测间隔),我们开发了确保分位数保持单调排序的工具,并采用保形校准方法。可以使用这些,而无需对原始模型的原始库进行任何修改。我们还回顾了一些围绕分数聚集和相关评分规则的基本理论,并为该文献做出了一些新的结果(例如,在分类或等渗后回归只能提高加权间隔得分的事实)。最后,我们提供了来自两个不同基准存储库的34个数据集的广泛的经验比较套件。
translated by 谷歌翻译
依赖于太多的实验来学习良好的行动,目前的强化学习(RL)算法在现实世界的环境中具有有限的适用性,这可能太昂贵,无法探索探索。我们提出了一种批量RL算法,其中仅使用固定的脱机数据集来学习有效策略,而不是与环境的在线交互。批量RL中的有限数据产生了在培训数据中不充分表示的状态/行动的价值估计中的固有不确定性。当我们的候选政策从生成数据的候选政策发散时,这导致特别严重的外推。我们建议通过两个直接的惩罚来减轻这个问题:减少这种分歧的政策限制和减少过于乐观估计的价值约束。在全面的32个连续动作批量RL基准测试中,我们的方法对最先进的方法进行了比较,无论如何收集离线数据如何。
translated by 谷歌翻译
鉴于其精确,效率和客观性,深入学习(DL)在重塑医疗保健系统方面具有很大的承诺。然而,DL模型到嘈杂和分发输入的脆性是在诊所的部署中的疾病。大多数系统产生点估计,无需进一步了解模型不确定性或信心。本文介绍了一个新的贝叶斯深度学习框架,用于分割神经网络中的不确定量化,特别是编码器解码器架构。所提出的框架使用一阶泰勒级近似传播,并学习模型参数分布的前两个矩(均值和协方差,通过最大化培训数据来最大限度地提高界限。输出包括两个地图:分段图像和分段的不确定性地图。细分决定中的不确定性被预测分配的协方差矩阵捕获。我们评估了从磁共振成像和计算机断层扫描的医学图像分割数据上提出的框架。我们在多个基准数据集上的实验表明,与最先进的分割模型相比,所提出的框架对噪声和对抗性攻击更加稳健。此外,所提出的框架的不确定性地图将低置信度(或等效高不确定性)与噪声,伪像或对抗攻击损坏的测试输入图像中的贴片。因此,当通过在不确定性地图中呈现更高的值,该模型可以自评测出现错误预测或错过分割结构的一部分,例如肿瘤。
translated by 谷歌翻译
在不确定,嘈杂或对抗性环境中学习是深度神经网络(DNN)的具有挑战性的任务。我们提出了一种在贝叶斯估计和变分推理时构建的强大学习的新理论上和有效的方法。我们制定通过DNN层层的密度传播的问题,并使用集合密度传播(ENDP)方案来解决它。ENPP方法允许我们在贝叶斯DNN的层上传播变分概率分布的片段,使得能够估计模型输出的预测分布的平均值和协方差。我们使用Mnist和CiFar-10数据集的实验表明,训练有素的模型的鲁棒性与随机噪声和对抗性攻击的稳健性显着改善。
translated by 谷歌翻译
机器学习模型在各种任务中取得了人力级别的性能。此成功以高成本的计算和存储开销,这使得机器学习算法难以在边缘设备上部署。通常,必须部分地牺牲精度,有利于在降低内存使用和能量消耗方面进行量化的性能。目前的方法通过减少参数的精度或通过消除冗余的方法压缩网络。在本文中,我们提出了通过贝叶斯框架的网络压缩的新洞察力。我们展示贝叶斯神经网络在模型参数中自动发现冗余,从而启用自压缩,这与通过网络层的不确定性传播链接。我们的实验结果表明,网络架构可以通过删除网络本身识别的参数来成功压缩,同时保持相同的准确度。
translated by 谷歌翻译
在本文中,我们调查了解决逆问题的各种深入学习策略。我们将现有的深度学习解决方案分为逆问题,分为三类直接映射,数据一致性优化优化器和深规范化器。我们选择每个逆问题类型的样本,以比较三类的稳健性,并报告对其差异的统计分析。我们对计算机视觉中的线性回归和三个众所周知的逆问题进行了广泛的实验,即图像去噪,3D人脸反向渲染和对象跟踪,选择为每种逆问题的代表原型。整体结果和统计分析表明,解决方案类别具有依赖于逆问题域的类型的稳健性行为,具体取决于问题是否包括测量异常值。基于我们的实验结果,我们通过为每个反问题类提出最强大的解决方案类别来得出结论。
translated by 谷歌翻译
随着深度神经网络的兴起,解释这些网络预测的挑战已经越来越识别。虽然存在许多用于解释深度神经网络的决策的方法,但目前没有关于如何评估它们的共识。另一方面,鲁棒性是深度学习研究的热门话题;但是,在最近,几乎没有谈论解释性。在本教程中,我们首先呈现基于梯度的可解释性方法。这些技术使用梯度信号来分配对输入特征的决定的负担。后来,我们讨论如何为其鲁棒性和对抗性的鲁棒性在具有有意义的解释中扮演的作用来评估基于梯度的方法。我们还讨论了基于梯度的方法的局限性。最后,我们提出了在选择解释性方法之前应检查的最佳实践和属性。我们结束了未来在稳健性和解释性融合的地区研究的研究。
translated by 谷歌翻译